查看原文
其他

分享一个完美的工具:多数据库集合,研究基因组学癌症必备

生信宝典 2022-07-05

The following article is from 医学方 Author Honey


今天给大家介绍一个研究基因组学癌症分析的在线科研工具,里面包含了33种癌症数据以及GTEX正常组织数据,平时在进行癌症分析时,正常组织的数据相比较少,比如TCGA数据库中乳腺癌数据有1200多个数据,其中有1100个是癌症数据,只有100多个是正常组织数据,进行差异分析、对比分析时就减小了说服力,今天介绍的这个网站就可以弥补这个弱点。

名称:GSCALite   

网址:

http://bioinfo.life.hust.edu.cn/web/GSCALite/


这个网站不仅可以做表达分析,还能进行生存、通路活性分析、药物敏感性分析等等大神级别操作,话不多说,快上车!


GSCALite是由用于三个主要来源的数据的分析模块组成,涵盖的数据库有:

  1. TCGA数据库)33种癌症类型的11160样本的多组学数据;

  2. GDSC数据库)癌症药物敏感性基因组学的746种药物数据;

  3. CTRP数据库)癌症治疗反应门户网站(药物敏感性);

  4. GTEx正常组织数据库)11688个样本的正常组织表达数据。

网站使用了多个数据库!省时省力! 当你的同学正在下数据、搞代码、因程序错误而崩溃时,你除了可以找易生信(www.ehbio.com/Training)学分析,还能用GSCALite出图啦!


使用教程

输入想要研究的基因组数据(想输多少个就输多少个,但是不能少于五个)。

分别选择癌症类型(下拉底部有正常组织数据)和分析选项,在右侧就会显示出来,注意观察下方是否显示有无效的基因,要及时修改。

点击Start Gene Set Analysis进行分析,当出现红色Please check the results on top-left menus of TCGA Cancer/Drug Response/GTEx Normal Tissue.时即可点击左上角查看结果。

结果分为三大模块:

一、 TCGA Cancer:
  1. mRNA Experssion
  2. Single Nucleotide Variation
  3. Copy Number Variation
  4. Methylation
  5. Pathway Activity
  6. miRNA Network
二、Drug Sensitivity

三、GTEx Normal Tissue



一TCGA Cancer1 mRNA 表达分析

肿瘤和正常组织对比,横坐标为癌症类型,纵坐标为研究的基因,圆圈的大小代表FDR值的大小,颜色显示log2 FC的大小,数值越大颜色越红。从这个图表中我们可以看出基因数据在那组癌症中具有显著的研究意义等。

若要下载图标,点击左上角的下载图标,还可以按照个人需求更改表格大小参数。

点击我们还可以查看表格形式数据,包括Fold Change、P-value、FDR等具体信息都有体现。

在生存分析选项,从颜色上就能转的区分处哪些是生存较差的指标,圈的大小代表P-valu的-log10数值大小。


2单核苷酸基因变异
  • SNV百分比率分析图表

从SNV百分比率分析图表可以直观地各基因在不同癌症类型中突变频率大小,突变频率越高红色越深,上方还直接的显示出了样本数量。

  • SNV总结

在单核苷酸基因变异总结选项中,能详细的展现出基因变异类型(SNP、INS、DEL)等,简直是详细的不能再详细了。
  • 单核苷酸基因变异瀑布图

瀑布图是经典的基因变异分析数据展示图,下方不同颜色代表不同癌症类型,右侧还展现图片频率,不用R语言瞬间出图。
  • 单核苷酸基因变异是否与生存相关

因为基因SNV本就比较少,在生存分析上有统计意义的就更少了,比如下方图中只展现了一个基因结果,但也说明了它的重要性。


3拷贝数变异

浅红色的Hete Amp代表杂合扩增;浅绿色的Hete Del代表杂合缺失;深红色的Homo Amp代表纯合扩增;深绿色的Homo Del代表纯合缺失;灰色代表无CNV发生。

后面还会单独列出杂合CNV和纯和CNV点状图,蓝色代表CNV缺失,红色代表CNV扩增,点越大表明突变率越大。

拷贝数变异与表达的相关性:蓝色代表正相关,红色代表负相关,颜色越深相关性越强。点的大小代表统计学意义,点越大统计意义越显著。


4甲基化分析
  • 肿瘤样本和正常样本的甲基化差异
差异甲基化气泡图显示了每种癌症中肿瘤与正常样品之间基因的甲基化变化。蓝点代表肿瘤中的甲基化下调,红点代表肿瘤中的甲基化上调,颜色越深,差异越大。点的大小代表统计意义,点越大,统计意义越显著。
  • 甲基化生存分析
具有特定基因的高甲基化和低甲基化的样品之间的生存差异,图中仅显示对数p值显著(<= 0.05)的基因。红点表示高甲基化基团的低差,蓝点相反。点的大小表示统计意义,点越大,统计意义越显著。
  • 甲基化与基因表达的相关性

蓝点表示负相关(表示当基因的甲基化水平上调,基因表达下调而不是上调时,它们具有相反的趋势),红色表示正相关(表示当基因的甲基化水平上调时,基因表达也上调) ,它们具有一致的趋势),颜色越深,相关性越高。


5通路活性
  • 癌症关键通路百分比

在这里通路活性模块显示通路活性组之间的基因表达差异(通路和抑制),通路活性组由通路得分定义。红色为代表促进,绿色代表抑制。
  • 热图百分比
热图显示至少在5种癌症类型中具有功能(抑制或激活)的基因。红色代表通路可以被给定基因激活的癌症百分比,抑制用蓝色表示。
  • 相关性网络
该网络通过线连接向您显示基因与途径之间的关系。实线表示激活,虚线表示抑制。线条的颜色代表不同的癌症类型。


6miRNA 网络

这个漂亮的网络是用networkD3 R软件包生成的,如果你需要为自己的论文获得一个不错的miRNA调控网络,那将是一个不错的选择。在该网络中,节点大小与节点的度成正相关。子组是通过igraph R程序包通过随机游走在图中获得社区而生成的,并以不同的颜色显示。



二药物敏感性分析

根据GDSC / CTRP IC50药物数据对基因进行药物耐药性分析。Spearman相关性代表基因表达与药物相关。正相关意味着基因高表达对药物具有抗性,反之亦然。



GTEx数据集中的基因集表达

热图可提供所选组织中基因组的表达谱,在此处,将以热图和箱形图的形式显示所选GTEx正常组织中查询基因集的表达谱和基因集变异分析得分。

这个网站的优势就在于涵盖了多数据库,而且还可以集SNV、CNV、miRNA互作用、与药敏研究于一身,是生信文章分析、实验前指标筛选、基因通路预测的完美工具。这么多分析功能的科研神器,相信将来你一定会用到。


喜欢这样的数据库很吗?你的数据也可以做到!——两篇NAR的数据库(点击蓝色字体了解详细。)




推荐阅读


学习津贴


单篇留言点赞数的第一位(点赞数至少为8)可获得我们赠送的在线基础课的9折优惠券

越留言,越幸运。

主编会在每周选择一位最有深度的留言,评论者可获得我们赠送的任意一门在线课程的9折优惠券偷偷告诉你,这个任意是由你选择哦)。


高颜值免费在线绘图




往期精品

画图三字经 生信视频 生信系列教程 

心得体会 TCGA数据库 Linux Python 

高通量分析 免费在线画图 测序历史 超级增强子

生信学习视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

自学生信 2019影响因子 GSEA 单细胞 

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存